其實爬蟲超多人寫的,且ptt的爬蟲資源也很多
google一下就一堆大神們,甚至更客製化
所以我明天應該會做個番外篇 !! 畢竟我也不是蟲王 ,能將爬蟲發揮到效能、 速度、跟突破各種反爬蟲的網頁的境界
回歸正題 ,今日終於要爬圖片了
圖片的重點就在於我們要找到"<img" 的標籤並將他 加上副檔名".png"
讓他成為一個圖檔能儲存在我們本機端
但ptt都是用imgur格式來存,所以必須要做以下幾個步驟
找到所有文章列表的文章內容
抓出文章內 imgur 相關的 url
透過正則表示式 (Regular Expression) 指定字串的格式。能辨識出屬於該格式的正規表示式為:
'^https?://(i.)?(m.)?imgur.com'
所以只要滿足這規則即可 找到所有圖片存在的方式
圖片跟連結通常都在標籤<a下面以href的屬性方式存在著
if d.find('a'): # 有超連結,表示文章存在,未被刪除
href = d.find('a')['href']
title = d.find('a').string
articles.append({
'title': title,
'href': href})
外傳: 最近看到react-native 的TINDER 蠻有趣的
可以順便把爬下來的圖片做進一步的範例學習
所以可能會外插個與自動化無關的內容